Комп`ютерна лінгвістика

[ виправити ] текст може містити помилки, будь ласка перевіряйте перш ніж використовувати.

скачати

Курсова робота
з дисципліни «Інформатика»
на тему: «Комп'ютерна лінгвістика»

Зміст
ВСТУП
1. Місце і роль комп'ютерної лінгвістики в лінгвістичних дослідженнях
2. Сучасні інтерфейси комп'ютерної лінгвістики
ВИСНОВОК
ЛІТЕРАТУРА

Введення
У житті сучасного суспільства важливу роль відіграють автоматизовані інформаційні технології. З плином часу їх значення безперервно зростає. Але розвиток інформаційних технологій відбувається дуже нерівномірно: якщо сучасний рівень обчислювальної техніки та засобів зв'язку вражає уяву, то в області смислової обробки інформації успіхи значно скромніші. Ці успіхи залежать, перш за все, від досягнень у вивченні процесів людського мислення, процесів мовного спілкування між людьми і від уміння моделювати ці процеси на ЕОМ.
Коли мова йде про створення перспективних інформаційних технологій, то проблеми автоматичної обробки текстової інформації, представленої на природних мовах, виступають на передній план. Це визначається тим, що мислення людини тісно пов'язане з його мовою. Більш того, природна мова є інструментом мислення. Він є також універсальним засобом спілкування між людьми - засобом сприйняття, накопичення, зберігання, обробки і передачі інформації. Проблемами використання природної мови в системах автоматичної обробки інформації займається наука комп'ютерна лінгвістика. Ця наука виникла порівняно недавно - на рубежі п'ятдесятих і шістдесятих років минулого століття. За минулі півстоліття в області комп'ютерної лінгвістики були отримані значні наукові та практичні результати: було створено системи машинного перекладу текстів з одних природних мов на інші, системи автоматизованого пошуку інформації в текстах, системи автоматичного аналізу та синтезу усного мовлення та багато інших. Дана робота присвячена побудові оптимального комп'ютерного інтерфейсу засобами комп'ютерної лінгвістики при проведенні лінгвістичних досліджень.

1. Місце і роль комп'ютерної лінгвістики в лінгвістичних дослідженнях
У сучасному світі при проведенні різних лінгвістичних досліджень все більш активно використовується комп'ютерна лінгвістика.
Комп'ютерна лінгвістика - це галузь знань, пов'язана c вирішенням завдань автоматичної обробки інформації, представленої на природній мові. Центральними науковими проблемами комп'ютерної лінгвістики є проблема моделювання процесу розуміння змісту текстів (переходу від тексту до формалізованого поданням його сенсу) і проблема синтезу мовлення (переходу від формалізованого подання сенсу до текстів на природній мові). Ці проблеми виникають при вирішенні низки прикладних завдань і, зокрема, задач автоматичного виявлення та виправлення помилок при введенні текстів в ЕОМ, автоматичного аналізу та синтезу усного мовлення, автоматичного перекладу текстів з одних мов на інші, спілкування з ЕОМ природною мовою, автоматичної класифікації і індексування текстових документів, їх автоматичного реферування, пошуку документів у повнотекстових базах даних.
Лінгвістичні засоби, які створюються і застосовуються в комп'ютерній лінгвістиці, можна умовно розділити на дві частини: декларативну і процедурну. До декларативної частини відносяться словники одиниць мови й мови, тексти і різного роду граматичні таблиці, до процедурної частини - засоби маніпулювання одиницями мови і мовлення, текстами та граматичними таблицями. Комп'ютерний інтерфейс відноситься до процедурної частини комп'ютерної лінгвістики.
Успіх у вирішенні прикладних задач комп'ютерної лінгвістики залежить, перш за все, від повноти і точності представлення в пам'яті ЕОМ декларативних засобів і від якості процедурних засобів. На сьогоднішній день необхідний рівень вирішення цих завдань поки ще не досягнуто, хоча роботи в області комп'ютерної лінгвістики ведуться в усіх розвинутих країнах світу (Росія, США, Англія, Франція, Німеччина, Японія та ін.)
Тим не менш, можна відзначити серйозні наукові та практичні досягнення в галузі комп'ютерної лінгвістики. Так в ряді країн (Росія, США, Японія, тощо) побудовані експериментальні та промислові системи машинного перекладу текстів з одних мов на інші, побудований ряд експериментальних систем спілкування з ЕОМ природною мовою, ведуться роботи зі створення термінологічних банків даних, тезаурусів, двомовних і багатомовних машинних словників (Росія, США, Німеччина, Франція та ін), будуються системи автоматичного аналізу та синтезу усного мовлення (Росія, США, Японія та ін), ведуться дослідження в області побудови моделей природних мов.
Важливою методологічною проблемою прикладної комп'ютерної лінгвістики є правильна оцінка необхідного співвідношення між декларативною і процедурної компонентами систем автоматичної обробки текстової інформації. Чому віддати перевагу: потужним обчислювальним процедурам, що спирається на відносно невеликі словникові системи з багатою граматичної та семантичної інформацією, або потужної декларативної компоненті при відносно простих комп'ютерних інтерфейсах? Більшість вчених вважають що, другий шлях переважно. Він швидше приведе до досягнення практичних цілей, тому що при цьому менше зустрінеться тупиків і важко переборних перешкод і тут можна буде в більш широких масштабах використовувати ЕОМ для автоматизації досліджень і розробок.
Необхідність мобілізації зусиль, перш за все, на розвитку декларативної компоненти систем автоматичної обробки текстової інформації підтверджується півстолітнім досвідом розвитку комп'ютерної лінгвістики. Адже тут, незважаючи на безперечні успіхи цієї науки, захоплення алгоритмічними процедурами не принесло очікуваного успіху. Настав навіть деяке розчарування в можливостях процедурних засобів.
У світлі вищевикладеного, представляється перспективним такий шлях розвитку комп'ютерної лінгвістики, коли основні зусилля будуть спрямовані на створення потужних словників одиниць мови й мови, вивчення їх семантико-синтаксичної структури та на створення базових процедур морфологічного, семантико-синтаксичного та концептуального аналізу та синтезу текстів. Це дозволить надалі вирішувати широкий спектр прикладних завдань.
Перед комп'ютерної лінгвістикою стоять, перш за все, завдання лінгвістичного забезпечення процесів збору, накопичення, обробки та пошуку інформації. Найбільш важливими з них є:
1. Автоматизація складання та лінгвістичної обробки машинних словників;
2. Автоматизація процесів виявлення та виправлення помилок при введенні текстів в ЕОМ;
3. Автоматичне індексування документів та інформаційних запитів;
4. Автоматична класифікація та реферування документів;
5. Лінгвістичне забезпечення процесів пошуку інформації в одномовних і багатомовних базах даних;
6. Машинний переклад текстів з одних природних мов на інші;
7. Побудова лінгвістичних процесорів, що забезпечують спілкування користувачів з автоматизованими інтелектуальними інформаційними системами (зокрема, з експертними системами) на природному мовою, або мовою, близькому до природного;
8. Витяг фактографічної інформації з неформалізованих текстів.
Детально зупинимося на проблемах, найбільш відносяться до теми дослідження.
У практичній діяльності інформаційних центрів є необхідність вирішення задачі автоматизованого виявлення та виправлення помилок у текстах при їх введенні в ЕОМ. Ця комплексна задача може бути умовно розчленована на три завдання - завдання орфографічного, синтаксичного та семантичного контролю текстів. Перша з них може бути вирішена за допомогою процедури морфологічного аналізу, що використовує досить потужний еталонний машинний словник основ слів. У процесі орфографічного контролю слова тексту піддаються морфологічному аналізу, і якщо їх основи ототожнюються з основами еталонного словника, то вони вважаються правильними, якщо не ототожнюються, то вони в супроводі мікроконтексту видаються на перегляд людині. Людина виявляє і виправляє перекручені слова, а відповідна програмна система вносить ці виправлення в коректований текст.
Завдання синтаксичного контролю текстів з метою виявлення в них помилок істотно складніше завдання їх орфографічного контролю. По-перше, тому, що вона включає до свого складу і завдання орфографічного контролю як свою обов'язкову компоненту, а, по-друге, тому, що проблема синтаксичного аналізу неформалізованих текстів у повному обсязі ще не вирішена. Тим не менш, частковий синтаксичний контроль текстів цілком можливий. Тут можна йти двома шляхами: або складати досить представницькі машинні словники еталонних синтаксичних структур і порівнювати з ними синтаксичні структури аналізованого тексту; або розробляти складну систему правил перевірки граматичної узгодженості елементів тексту. Перший шлях нам видається більш перспективним, хоча він, звичайно, не виключає і можливості застосування елементів другого шляху. Синтаксична структура текстів повинна описуватися в термінах граматичних класів слів (точніше - у вигляді послідовностей наборів граматичної інформації до слів).
Задачу семантичного контролю текстів з метою виявлення в них смислових помилок слід віднести до класу задач штучного інтелекту. У повному обсязі вона може бути вирішена тільки на основі моделювання процесів людського мислення. При цьому, мабуть, доведеться створювати потужні енциклопедичні бази знань і програмні засоби маніпулювання знаннями. Тим не менш, для обмежених предметних областей і для формалізованої інформації це завдання цілком можна вирішити. Вона повинна ставитися і вирішуватися як завдання семантико-синтаксичного контролю текстів.
Проблема автоматизації індексування документів і запитів є традиційною для систем автоматизованого пошуку текстової інформації. Спочатку під індексуванням розуміли процес присвоєння документам і запитам класифікаційних індексів, що відображають їх тематичний зміст. Надалі це поняття трансформувалося і терміном «індексування» стали називати процес перекладу описів документів і запитів з природної мови на формалізований, зокрема, на мову «пошукових образів». Пошукові образи документів стали, як правило, оформлятися у вигляді переліків ключових слів і словосполучень, що відображають їх тематичний зміст, а пошукові образи запитів - у вигляді логічних конструкцій, в яких ключові слова і словосполучення з'єднувалися один з одним логічними і синтаксичними операторами.
Автоматичне індексування документів зручно проводити за текстами їх рефератів (якщо вони є), оскільки в рефератах основний зміст документів відображається в концентрованому вигляді. Індексування може проводитися з контролем по тезаурусу або без контролю. У першому випадку в тексті заголовка документа і його реферату шукаються ключові слова і словосполучення еталонного машинного словника і в ПІД включаються тільки ті з них, які знайшлися в словнику. У другому випадку ключові слова і словосполучення виділяються з тексту і включаються до ПІД незалежно від їх приналежності до якого-небудь еталонному словника. Був реалізований ще й третій варіант, де поряд з термінами з машинного тезаурусу в ПІД включалися ще й терміни, виділені з заголовка і першої пропозиції реферату документа. Експерименти показали, що поди, складені в автоматичному режимі по заголовках і рефератах документів, забезпечують велику повноту пошуку, ніж поди, складені вручну. Пояснюється це тим, що система автоматичного індексування більш повно відображає різні аспекти змісту документів, ніж система ручного індексування.
При автоматичному індексуванні запитів виникають приблизно ті ж проблеми, що й при автоматичному індексуванні документів. Тут також доводиться виділяти ключові слова і словосполучення з тексту і нормалізувати слова, що входять в текст запиту. Логічні зв'язки між ключовими словами і словосполученнями й контекстуальні оператори можуть проставлятися вручну або за допомогою автоматизованої процедури. Важливим елементом процесу автоматичного індексування запиту є додаток входять до його складу ключових слів і словосполучень їх синонімами і гіпонімії (іноді також гіпероніму та іншими термінами, асоційованими з вихідними термінами запиту). Це може бути зроблено в автоматичному або в інтерактивному режимі за допомогою машинного тезаурусу.
Проблему автоматизації пошуку документальної інформації ми вже частково розглядали у зв'язку із завданням автоматичного індексування. Найбільш перспективним тут є пошук документів за їх повних текстів, так як використання для цієї мети всякого роду замінників (бібліографічних описів, пошукових образів документів і текстів їх рефератів) призводить до втрат інформації при пошуку. Найбільші втрати мають місце тоді, коли в якості замінників первинних документів використовуються їх бібліографічні описи, найменші - при використанні рефератів.
Важливими характеристиками якості пошуку інформації є його повнота і точність. Повнота пошуку може бути забезпечена шляхом максимального врахування парадигматичних зв'язків між одиницями мови і мовлення (словами і словосполученнями), а точність - шляхом обліку їх синтагматичних зв'язків. Існує думка, що повнота і точність пошуку перебувають у зворотній залежності: заходи щодо поліпшення однієї з цих характеристик призводять до погіршення іншої. Але це справедливо тільки для фіксованого логіки пошуку. Якщо цю логіку вдосконалювати, то обидві характеристики можуть поліпшуватися одночасно.
Процес пошуку інформації в повнотекстових базах даних доцільно будувати як процес діалогового спілкування користувача з інформаційно-пошуковою системою (ІПС), при якому він послідовно переглядає фрагменти текстів (абзаци, параграфи), що задовольняють логічним умовам запиту, і відбирає ті з них, які для нього становлять інтерес. В якості остаточних результатів пошуку можуть видаватися як повні тексти документів, так і будь-які їхні фрагменти.
Як видно з попередніх міркувань, при автоматичному пошуку інформації доводиться долати мовний бар'єр, що виникає між користувачем і ІПС у зв'язку з яких місце у текстах різноманітністю форм представлення одного і того самого змісту. Цей бар'єр стає ще більш значним, якщо пошук доводиться вести в різномовних базах даних. Кардинальним вирішенням проблеми тут може бути машинний переклад текстів документів з одних мов на інші. Це можна робити або заздалегідь, перед завантаженням документів в пошукову систему, або в процесі пошуку інформації. В останньому випадку запит користувача має перекладатися на мову масиву документів, в якому ведеться пошук, а результати пошуку - на мову запиту. Такого роду пошукові системи вже працюють у системі Internet. У ВІНІТІ РАН була також побудована система Cyrillic Browser, яка дозволяє здійснювати пошук інформації в російськомовних текстах за запитами англійською мовою з видачею результатів пошуку також на мові користувача.
Важливою і перспективним завданням комп'ютерної лінгвістики є побудова лінгвістичних процесорів, що забезпечують спілкування користувачів з інтелектуальними автоматизованими інформаційними системами (зокрема з експертними системами) на природному мовою або мовою, близькому до природного. Оскільки в сучасних інтелектуальних системах інформація зберігається у формалізованому вигляді, то лінгвістичні процесори, виконуючи роль посередників між людиною і ЕОМ, повинні вирішувати такі основні завдання: 1) завдання переходу від текстів вхідних інформаційних запитів та повідомлень на природній мові до подання їхнього змісту на формалізованій мові (при введенні інформації в ЕОМ); 2) завдання переходу від формалізованого подання сенсу вихідних повідомлень до його подання на природній мові (при видачі інформації людині). Перша задача повинна вирішуватися шляхом морфологічного, синтаксичного та концептуального аналізу вхідних запитів та повідомлень, друга - шляхом концептуального, синтаксичного і морфологічного синтезу вихідних повідомлень.
Концептуальний аналіз інформаційних запитів та повідомлень полягає у виявленні їх понятійної структури (меж найменувань понять і відносин між поняттями в тексті) і переклад цієї структури на формалізований мову. Він проводиться після морфологічного та синтаксичного аналізу запитів та повідомлень. Концептуальний синтез повідомлень складається в переході від подання елементів їх структури на формалізованій мові до вербального (словесного) поданням. Після цього повідомленнями дається необхідне синтаксичне і морфологічне оформлення.
Для машинного перекладу текстів з одних природних мов на інші необхідно розташовувати словниками перекладних відповідників між найменуваннями понять. Знання про такі перекладних відповідностях накопичувалися багатьма поколіннями людей і оформлялися у вигляді спеціальних видань - двомовних або багатомовних словників. Для фахівців, що володіють в тій чи іншій мірі іноземними мовами, ці словники служили цінними посібниками при перекладі текстів.
У традиційних двомовних і багатомовних словниках загального призначення перекладні еквіваленти вказувалися переважно для окремих слів, для словосполучень - значно рідше. Вказівка ​​перекладних еквівалентів для словосполучень було більш характерне для спеціальних термінологічних словників. Тому при перекладі відрізків текстів, що містять багатозначні слова, у учнів часто виникали труднощі.
Нижче наведені перекладні відповідності між кількома парами англійських і російських фраз по «шкільній» тематики.
1) The bat looks like a mouse with wings - Летюча миша схожа на мишу з крилами.
2) Children like to play in the sand on the beach - Діти люблять грати в піску на березі моря.
3) A drop of rain fell on my hand - Крапля дощу впала мені на руку.
4) Dry wood burns easily - сухі дрова добре горять.
5) He divtended not to hear me - Він робив вигляд, що не чує мене.
Тут англійські фрази не є ідіоматичними висловлюваннями. Тим не менш, їх переклад на російську мову лише з деякою натяжкою можна розглядати як простий послівний переклад, так як майже всі вхідні в них слова багатозначні. Тому тут учнем здатні допомогти тільки досягнення комп'ютерної лінгвістики.
Нижче будуть розглянуті основні системи машинного перекладу, здатні допомагати учнем при вивченні мови.
2. Сучасні інтерфейси комп'ютерної лінгвістики
Перші експерименти по машинному перекладу, що підтвердили принципову можливість його реалізації, були проведені в 1954 р. в Джорджтаунському університеті (м. Вашингтон, США). Незабаром після цього в промислово розвинених країнах світу були розпочаті дослідження та розробки, спрямовані на створення систем машинного перекладу (систем МП). І хоча з тих пір пройшло півстоліття, проблема машинного перекладу все ще не вирішена на належному рівні. Вона була значно складнішою, ніж це уявляли собі піонери і ентузіасти МП кінця п'ятдесятих - початку шістдесятих років минулого століття.
З досягнень комп'ютерної лінгвістики слід виділити, перш за все, систему під назвою RETRANS. Перша промислова версія цієї системи була розроблена в 1993 році і стала використовуватися в ряді державних установ Росії, Франції, США та Англії. Після цього було створено ще кілька версій системи. До 1998 р. всі вони були призначені для роботи в середовищі операційної системи MS DOS, а в 1998-2000 р.р. були адаптовані для операційних систем Windows 9x/NT і різних варіантів UNIX (Linux, Solaris та ін.)
У 2001 р. тим же авторським колективом була розроблена нова версія системи фразеологічного машинного перекладу RETRANS. Ця версія реалізована в декількох модифікаціях:
1. Система, що працює в середовищі текстового процесора MS Word-2000.
2. Система, що працює в середовищі Web-браузера MS Internet Explorer.
3. Система, що працює з будь-якими Windows-додатками, здатними копіювати текст у «Буфер Обміну» (Clipboard).
Перша модифікація системи володіє тим перевагою, що людина, яка має досвід роботи з редактором типу Word, може за допомогою цієї. При цьому він може користуватися всіма можливостями редактора Word.
Друга модифікація системи може служити ефективним засобом спілкування з системою Internet для осіб, які знають російську мову, але не знають англійської, або, навпаки, хто знає англійську мову, але не знають російської. Вона може також використовуватися для перекладу будь-яких документів, представлених у вигляді Web-сторінок (наприклад, електронної версії Британської Енциклопедії). При цьому у всіх випадках зберігається зовнішній вигляд перекладеної сторінки.
Третя модифікація системи може бути корисна при роботі з простими програмами типу MS Notepad, MS Wordpad, MS Paint і їм подібними, а також при обробці різних електронних форм.
У разі необхідності, на одній ЕОМ можуть встановлюватися кілька модифікацій системи RETRANS одночасно. При цьому ядро ​​процедурних засобів та словникові засоби системи будуть представлені тільки в одному екземплярі.
Основні політематичних машинні словники системи Retrans (російсько-англійський та англо-російський) включають в свій склад термінологію з природничих і технічних наук, економіці, бізнесу, політиці, законодавству й військовій справі.
Крім основних політематичних машинних словників до складу системи RETRANS входять дванадцять додаткових тематичних словників, що включають лексику споріднених тематик. Ці словники містять словникові статті тільки тих слів і словосполучень із політематичних словників, які в рамках кожної тематичної групи мають пріоритетні перекладні еквіваленти, відмінні від пріоритетних перекладних еквівалентів основних словників. У додаткових тематичних словниках лексичні одиниці (слова і словосполучення) можуть мати не більше двох перекладних еквівалентів (в политематическим словнику їх може бути до п'яти).
Засоби автоматизованого поповнення та налаштування машинних словників, створені на початкових етапах розробки системи RETRANS, відіграли велику роль в її подальшому розвитку. Але досвід практичної експлуатації цієї системи виявив необхідність введення деяких змін до структури словників. Поряд з основними политематическим і додатковими тематичними словниками системи були введені ще й додаткові словники користувачів. При цьому малося на увазі, що при перекладі текстів з однієї мови на іншу одночасно використовуються три словника: основний політематичний словник, один з додаткових тематичних словників і один із словників користувачів.
Словник користувача (СП) служить для тонкої настройки системи машинного перекладу, що виконується самим користувачем при перекладі текстів з конкретної тематики. Крім того, СП дає можливість використовувати при перекладі раніше накопичені словникові масиви. На відміну від основного політематичного словника і додаткових тематичних словників, вміст яких може змінюватися тільки розробниками системи машинного перекладу, словник користувача може створюватись та змінюватись користувачем за своїм розсудом.
За структурою словникових статей словник користувача аналогічний основного політематичної і додатковим тематичним словникам, але він відрізняється від них кількістю можливих варіантів перекладу, що вказуються для вхідних найменувань понять. Тут для кожного вхідного найменування поняття може зазначатися тільки один варіант перекладу. Відрізняється словник користувача також і способом його зберігання в файлі. Це пов'язано з необхідністю оперативної зміни змісту словника, і тим, що його обсяг значно менше, ніж обсяг словників інших типів.
Кожна запис СП описує найменування одного поняття вихідного мови, яке може мати довжину від одного до 17-Тісл. Його перекладної еквівалент також може мати довжину від одного до 17-ти слів. Словник може включати до 65 тисяч словникових статей.
Користувач системи RETRANS може створювати практично необмежену кількість своїх словників з різних тематик, але в процесі перекладу конкретного тексту використовується тільки один словник. При необхідності, можна об'єднати кілька словників в один словник.
В інтерактивному режимі роботи користувач має можливість переглядати всі варіанти перекладу слів і словосполучень містяться в словниках, змінювати їх пріоритет, додавати нові перекладні еквіваленти, а також виконувати інші операції над проміжними результатами перекладу. У проміжних результати переведення еквівалент, обраний із СП, буде стояти першим у списку можливих варіантів перекладу найменування поняття. Потім будуть розташовуватися варіанти перекладу, вибрані з додаткового тематичного словника, в тому порядку, в якому вони записані в словнику. За ними - варіанти перекладу з основного політематичного словника.
Тим же авторським колективом розроблена нова версія системи фразеологічного машинного перекладу, що отримала назву «система Vista". Ця версія реалізована в декількох модифікаціях:
1. Система, що працює в середовищі текстового процесора MS Word 2000 (система Word Vista).
2. Система, що працює в середовищі Web-браузера MS Internet Explorer5.0 і вище (система Web Vista).
3. Система масового обслуговування, що встановлюється на сервері IIS 4.0 і вище та яка використовується в режимі віддаленого доступу стандартними Windows-клієнтами (наприклад, MS Word, MS Internet Explorer і будь-якими іншими додатками, здатними копіювати текст у «Буфер Обміну») на основі протоколаHTTP (т. е. працює як в середовищі Internet, так і в середовищі Intranet). Ця система отримала назву Net Vista.
4. Система, що працює з будь-якими Windows-додатками, здатними копіювати текст у «Буфер Обміну» (Clipboard). Ця система отримала назву Clip Vista.
Система Word Vista володіє тим перевагою, що людина, яка має досвід роботи з редактором типу Word, може за допомогою цієї системи почати переклад текстів практично без попередньої підготовки. При цьому він може користуватися всіма можливостями редактора Word.
Система Web Vista може виявитися незамінним засобом спілкування з системою Internet для осіб, які знають російську мову, але не знають англійської, або, навпаки, хто знає англійську мову, але не знають російської. Вона може також використовуватися для перекладу будь-яких документів, представлених у вигляді Web-сторінок (наприклад, електронної версії Британської Енциклопедії). При цьому у всіх випадках зберігається зовнішній вигляд перекладеної сторінки.
Система Net Vista дозволяє користувачам, розташованим в будь-якій точці земної кулі, здійснювати переклад текстів з російської мови на англійську і з англійської на російську в режимі віддаленого доступу до цієї системи. При цьому самі текстові документи можуть зберігатися в будь-якій іншій точці земної кулі, а переклад виконуватися в третій точці.
Система Clip Vista може бути корисна при роботі з простими програмами типу MS Notepad, MS Wordpad, MS Paint і їм подібними, а також при обробці різних електронних форм, наприклад, при заповненні резюме або введення пошукового запиту, якщо потрібно використовувати іншу мову.
У разі необхідності, на ЕОМ користувача можуть встановлюватися кілька модифікацій системи Vista одночасно. При цьому ядро ​​процедурних засобів та словникові засоби системи будуть встановлені тільки в одному екземплярі.
Основні політематичних машинні словники системи Vista (російсько-англійський та англо-російський) включають в свій склад термінологію з природничих і технічних наук, економіці, бізнесу, політиці, законодавству й військовій справі.
Крім основних політематичних машинних словників до складу системи Vista входять дванадцять додаткових тематичних словників, що включають лексику споріднених тематик. Ці словники містять словникові статті тільки тих слів і словосполучень із політематичних словників, які в рамках кожної тематичної групи мають пріоритетні перекладні еквіваленти, відмінні від пріоритетних перекладних еквівалентів основних словників. У додаткових тематичних словниках лексичні одиниці (слова і словосполучення) можуть мати не більше двох перекладних еквівалентів (в политематическим словнику їх може бути до п'яти).
У процесі перекладу текстів пошук перекладних еквівалентів лексичних одиниць, що входять до їх складу, ведеться в политематическим словнику і в одному з додаткових тематичних словників (на вибір користувача). При синтезі вихідного тексту перекладні еквіваленти додаткового словника вважаються більш пріоритетними, ніж перекладні еквіваленти політематичного словника.
Машинні словники системи VISTA можуть коригуватися і поповнюватися в процесі перекладу текстів в інтерактивному режимі. У цьому режимі є можливість виявляти слова і словосполучення, для яких у словнику не вказані перекладні еквіваленти або ці еквіваленти не відповідають контексту або зазначено кілька еквівалентів, але на першому місці стоїть еквівалент, який не відповідає контексту. У разі відсутності перекладних еквівалентів у деяких слів вони можуть бути вказані людиною; якщо еквіваленти не відповідають контексту, вони можуть бути замінені, якщо їх декілька, то є можливість вибрати тільки ті з них, які відповідають контексту.
У складі системи VISTA є пакет програм, який дозволяє виявляти редакційні правки, зроблені перекладачем, формувати на їх основі словникові статті і вводити їх в додаткові словники відповідної тематики. Таким чином, систему машинного перекладу можна налаштовувати на різні предметні області.
Системи фразеологічного перекладу RETRANS і VISTA слід розглядати лише як перші кроки у розвитку систем подібного типу. Попереду ще велика робота по вдосконаленню їх процедурних і декларативних засобів. Особливо важкою є задача створення досить потужних фразеологічних словників.

Висновок
У системах автоматичної обробки текстової інформації важливу роль відіграє комп'ютерна лінгвістика. Центральними науковими проблемами комп'ютерної лінгвістики є проблема моделювання процесу розуміння змісту текстів (переходу від тексту до формалізованого поданням його сенсу) і проблема синтезу мовлення (переходу від формалізованого подання сенсу до текстів на природній мові).
Важливою методологічною проблемою комп'ютерної лінгвістики є правильна оцінка необхідного співвідношення між декларативною і процедурної компонентами систем автоматичної обробки текстової інформації. При вирішенні прикладних задач комп'ютерної лінгвістики основний акцент слід робити на декларативні кошти, але процедурні засоби, в тому числі грамотний комп'ютерний інтерфейс теж грають не останню роль.
Традиційні методи подолання мовних бар'єрів - це навчання іноземним мовам і перекладацька діяльність. Але із зростанням економічних, політичних і культурних зв'язків між країнами і підвищенням інтенсивності інформаційних потоків між ними ці методи стають недостатніми. Виникла необхідність шукати альтернативні шляхи вирішення проблеми. І одним з них може з'явитися створення систем фразеологічного машинного перекладу.
Систему фразеологічного машинного перекладу RETRANS слід розглядати лише як перший крок у згаданому напрямку. Попереду ще велика робота щодо вдосконалення її процедурних та декларативних засобів. Особливо важкою є задача створення досить потужних фразеологічних словників, які можуть мати обсяг кілька сотень мільйонів словникових статей.

Література
1. Белоногов Г.Г., Калінін Ю.П., Хорошилов А.А. Комп'ютерна лінгвістика і перспективні інформаційні технології. М., 2004.
2. Белоногов Г.Г., Зеленков Ю.Г., Новосьолов А.П., Хорошилов Ал-др А., Хорошилов Ал-сей А. Системи фразеологічного машинного перекладу. Стан і перспективи розвитку. СБ «Нано-технічна інформація» сер. 2, N 12, ВІНІТІ, 1998 р .
3. Белоногов Г.Г., Зеленков Ю.Г., Новосьолов А.П., Хорошилов Ал-др А., Хорошилов Ал-сей О. Метод аналогії в комп'ютерній лінгвістиці. СБ «Науково-технічна інформація» сер. 2, N 1, ВІНІТІ, 2000 р .
4. Панов Д.Ю., Ляпунов А.А., Мухін І.С. Автоматизація перекладу з однієї мови на іншу: Сесія з наукових проблем автоматизації виробництва .- М.: вид. АН СРСР, 1956.
5. Убін І.І. Сучасні засоби автоматизації перекладу: надії, розчарування і реальність. СБ «Переклад у сучасному світі». ВЦП, 2001.
Додати в блог або на сайт

Цей текст може містити помилки.

Програмування, комп'ютери, інформатика і кібернетика | Курсова
65.8кб. | скачати


Схожі роботи:
Комп`ютерна лінгвістика як прикладна лінгвістична дисципліна
Комп`ютерна злочинність і комп`ютерна безпека
Комп ютерна технологія графогеометричного моделювання Взаємозвязок 2D 3D комп ютерної графіки
Комп ютерна технологія графогеометричного моделювання Взаємозвязок 2D 3D комп ютерної графіки
Злочини у сфері комп`ютерної інформації 2 Комп`ютерна злочинність
Комп ютерна графіка
Комп`ютерна підготовка
Комп`ютерна практика
Комп`ютерна алергія
© Усі права захищені
написати до нас